一键生成 90 分钟 4 人对话语音!VibeVoice-1.5B 重新定义 TTS 技术边界 VibeVoice-1.5B 是由微软于 2025 年 8 月发布的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。模型通过创新的连续语音标记化技术和下一代标记扩散框架,结合大型语言模型(LLM),实现高效处理长序列音频的 语音 tts speaker tts技术 定义tts 2025-09-17 19:03 3